智能论文笔记

Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis

Yukiya Hono , Kazuna Tsuboi , Kei Sawada , Kei Hashimoto , Keiichiro Oura , Yoshihiko Nankaku , Keiichi Tokuda

分类：机器学习

2020-09-17

本文提出了一种具有多粒度潜变量的分层生成模型，以综合表达语音。近年来，将细粒度的潜在变量引入了文本到语音合成中，使得韵律和讲话方式的精细控制能够进行综合演讲。然而，当通过从标准高斯先前抽样获得这些潜变量时，言语的自然度降低。为了解决这个问题，我们提出了一种用于建模细粒度潜在变量的新框架，考虑到输入文本，分层语言结构和潜在变量的时间结构的依赖性。该框架包括多粒子变形AutoEncoder，条件先前和多级自回归潜伏转换器，以获得不同的时间分辨率潜变量，并通过拍摄来对较粗级别的潜入变量进行样本考虑到输入文本。实验结果表明，在合成阶段在没有参考信号的情况下采样细粒潜变量的适当方法。我们拟议的框架还提供了整个话语中说话风格的可控性。

translated by 谷歌翻译